# Qualitative Methods Lossless Knowledge Graph (QualMethods_KG)

版本：v1  
日期：2025-11-19  
打包文件：`QualMethods_KG_Full_20251119_151757.zip`

本知识图谱将 5 篇关于「深度访谈 / 焦点小组 / 跨文化抽样框架 / 变量导向质性实证方法 / 讨论指南设计规范」的 PDF 文本，抽取为**句子级、可追溯、可计算**的数字化无损知识图谱，支持教学、研究和 AI 系统调用。

---

## 1. 图谱整体结构与文件说明

本 ZIP 中包含以下 CSV 文件（4+1 核心表 + 若干辅助表）：

1. **Entities_QualMethods_*.csv**  
   - 功能：定义所有「节点」  
   - 典型实体类型（`entity_type`）：  
     - `Document`：原始文档 D1–D5  
     - `Method / Framework`：M1–M5（深度访谈、焦点小组、变量导向法、讨论指南框架等）  
     - `Rule`：R1_DI–R8_DI，R1_FG–R17_FG  
     - `Component`：C1_CC–C8_CC（跨文化抽样框架的 8 大构件）  
     - `Level / Step`：L1_VAR–L4_VAR，S1_VAR–S10_VAR，S1_DG–S6_DG  
     - `Principle / Context / Example`：讨论指南原则、应用情境、示范案例等  
   - 关键字段：  
     - `id`：实体唯一 ID（如 `M1`, `R3_DI`, `C1_CC`）  
     - `entity_type`：实体类别  
     - `name_en`：英文名称  
     - `description_en`：英文描述（总结原文含义）  
     - `source_doc`：对应的文档 ID（D1–D5）

2. **Relations_QualMethods_*.csv**  
   - 功能：定义「方法–规则–步骤–构件」之间的结构关系  
   - 常用关系（`predicate_en`）：  
     - `DEFINES_METHOD`：Document → Method  
     - `DEFINES_FRAMEWORK`：Document → Framework  
     - `HAS_RULE`：Method → Rule  
     - `HAS_COMPONENT`：Framework → Component  
     - `HAS_LEVEL` / `HAS_STEP`：Method → Level / Step  
     - `HAS_CONTEXT` / `HAS_PRINCIPLE`：Framework → Context / Principle  
     - `HAS_EXAMPLE`：Framework → Example  
   - 关键字段：  
     - `id`：边 ID  
     - `subject_id`：起点节点 ID  
     - `predicate_en`：关系名称（英文）  
     - `object_id`：终点节点 ID  
     - `relation_type`：关系类型（如 `hierarchical`）  
     - `description_en`：英文说明

3. **Evidence_QualMethods_*.csv**  
   - 功能：**句子级证据表（最细粒度）**  
   - 说明：将 5 篇 PDF 中可解析文本切分为句子级单元，每一行代表「一个句子」或「一个语义最小单元」，并带有精确锚点。  
   - 关键字段：  
     - `evidence_id`：如 `D1_P2_B3_PAR5_S1`（D1，页2，块3，第5段，第1句）  
     - `doc_id`：D1–D5  
     - `page_number`：页码（PDF 内部页码，从1开始）  
     - `block_index`：该页内文本块序号  
     - `paragraph_index`：整篇文档里的段落序号（自上而下递增）  
     - `sentence_index`：段落内的句子序号  
     - `text_excerpt`：该句的原文内容  
     - `language`：简易语言识别（zh-CN / en）  
     - `note`：备注（当前为空，可后续添加如「定义句」「示例句」）

4. **NodeEvidence_QualMethods_full_*.csv**  
   - 功能：**节点–证据对齐表（Document → Sentence）**  
   - 当前版本中，我已自动生成：  
     - 每一条 Evidence 中的句子都与其所属 `doc_id` 建立一条对齐关系  
   - 也就是说：  
     - 可以精确回答「文档 D1 中所有句子是什么？」  
   - 关键字段：  
     - `node_id`：目前为 D1–D5（Document 节点）  
     - `evidence_id`：对应句子 ID（来自 Evidence 表）  
     - `relation_en`：目前统一为 `"CONTAINS"`  
     - `weight`：当前为 1.0（后续可自定义重要性）  
     - `note`：`"auto: document–sentence containment"`，表示这是自动生成的「文档包含句子」关系  
   - 后续可扩展：  
     - 为 `R1_DI`, `R2_FG`, `C1_CC`, `S6_VAR`, `P2_DG` 等具体规则 / 步骤补充证据句：  
       - 如 `node_id = "R1_DI"`, `relation_en = "DEFINES"` / `"SUPPORTS"` 等  
       - 这样即可精细到「某一条方法论规则由哪些原句支撑」

5. **DocumentIndex_QualMethods_*.csv**  
   - 功能：图谱文档节点 → 原始 PDF 文件的索引表  
   - 字段：  
     - `doc_id`：D1–D5  
     - `file_name`：原始 PDF 文件名  
   - 用途：  
     - 在系统中从 doc_id 直接定位到 PDF，再结合 Evidence 中的 page/paragraph/sentence 定位精确位置。

6. **Combined_QualMethods_*.csv（辅助）**  
   - 说明：一个合并视图，将 Evidence 与早期的 NodeEvidence 骨架按列统一到一个 CSV 中，主要用于早期检查，现在核心使用还是上面 4+1 张表。

---

## 2. 图谱具备的主要功能（Function List）

### 功能 1：方法论体系的「结构化地图」

- 将 5 篇方法文档中零散的规则、步骤、构件，统一抽象为：  
  - `Method / Framework` → `Rule / Step / Component / Principle / Context`  
- 可直接回答：  
  - 某个方法（如深度访谈 M1）包含哪些规则？  
  - 焦点小组（M2）的全部 17 条规则各自管什么？  
  - 变量导向法（M4）分成哪些层级（Level）和 10 大步骤（Step）？  
  - 讨论指南框架（M5）在 HBS 语境下如何结构化应用？

适用场景：教材编写、课堂讲解、方法比较、研究方案写作。

---

### 功能 2：句子级证据回溯与「可审计性」

- 每一个句子都有唯一 `evidence_id`，并且：  
  - 对应 `doc_id`（哪篇文献）  
  - 在 PDF 中的页码、块、段落、句子位置  
- 你可以在任何推理、总结、教学内容后，附上某个 `evidence_id`，实现：  
  - **从图谱结论 → 证据句 → 对应 PDF 页的原文** 的完整追溯链条  
- 这使得图谱具备：  
  - 研究审计（auditability）  
  - 方法论教学中的「示例句–规则」一一对应  
  - LLM 使用时的「可解释性」增强（GraphRAG）

---

### 功能 3：支持 GraphRAG / 检索增强型 LLM

结合这组表，你可以很方便地构建一个基于图谱的 RAG 系统，支持：

1. **实体级检索（Entity-centric retrieval）**  
   - 输入：  
     - “Harvard 标准下焦点小组的抽样规则有哪些？”  
   - 操作：  
     - 检索实体：`entity_type = "Rule"` 且 `source_doc = "D2"`  
     - 通过 Relations 找到所有 `M2 -> HAS_RULE -> R*_FG` 的节点  
   - 输出：  
     - Rule 列表（R1_FG–R17_FG）及其 `description_en`

2. **证据级检索（Evidence-centric retrieval）**  
   - 输入：  
     - “show me all sentences that define sampling saturation in in-depth interviews”  
   - 操作：  
     - 在 Evidence 中全文检索 `"饱和"` / `"saturation"`  
     - 返回相关 `evidence_id` + `text_excerpt` + `page_number`  
   - 输出：  
     - 可直接显示句子内容，也可跳转 PDF

3. **图谱 + 证据联合检索**  
   - 先找到相关实体（如 `R3_DI`），再通过 NodeEvidence 精细对齐到具体证据句（后续可由你手工补充）。

---

### 功能 4：研究设计与教学的「方法论拼装台」

通过 Entities + Relations + Evidence，你可以：

- 快速构建一个**合规、HBS 水平**的研究方法章节骨架：  
  - 研究对象 / 抽样框架（来源 D3, C1_CC–C8_CC）  
  - 研究方法：深度访谈 + 焦点小组（M1, M2 及其规则）  
  - 变量导向质性分析流程（M4, S1_VAR–S10_VAR）  
  - 讨论指南设计规范（M5, P*_DG, S*_DG）  

- 课堂作业：  
  - 要求学生「用图谱节点」写 Methodology：  
    - 选择合适的 Method / Rule / Step 节点  
    - 引用 Evidence 中的句子作为支撑  
    - 最后保证每个部分都有对应的 evidence_id，可审计。

---

### 功能 5：跨项目迁移与扩展（Multi-project integration）

本知识图谱采用通用字段命名（英文），便于：

- 与其他知识图谱（如：供应链、NEV 内容生态、OIVA-421 等）进行合并：  
  - 可以统一采用：`Entities / Relations / Evidence / NodeEvidence / DocumentIndex` 五表结构  
- 用作「方法论超图谱」的一部分：  
  - 将这里的 Method / Rule 节点挂载到你的其他研究项目上（例如某个 NEV 研究的 Methodology 部分节点）

---

### 功能 6：无损性保证与可持续升级

**无损性（Lossless）的定义在本项目中的实现方式：**

1. **文本层面**  
   - 所有可由 PyPDF2 解析的文本已被切分为句子级 Evidence 行，并带有 PDF 内部坐标；  
   - 只要你同时保留原始 PDF，图谱不会丢失任何文本信息（可从坐标复原原文）。

2. **结构层面**  
   - 所有方法论关键结构都被编码为实体与关系，是真实内容的抽象增强而非删减。  

3. **对齐层面**  
   - 当前版本已实现：Document ↔ Sentence 的完备对齐（每个句子都归属于某个文档节点）；  
   - 你可以在此基础上继续补充：Rule / Step / Principle ↔ Sentence 的精细证据对齐，让图谱在「规则级」也达到无损可溯。

---

## 3. 推荐使用方式

1. **快速浏览与检查**  
   - 用 Excel / pandas 打开 `Entities` 与 `Relations`，理解整体方法论结构；  
   - 用文本编辑器或数据分析工具打开 `Evidence`，查看句子内容与分布。

2. **导入图数据库（Neo4j 等）**  
   - 创建节点标签：`Document`, `Method`, `Rule`, `Component`, `Level`, `Step`, `Principle`, `Context`, `Example` 等；  
   - 导入 `Entities` 作为节点，`Relations` 作为边；  
   - 将 `Evidence` 作为 `Evidence` 节点或属性，并用 `NodeEvidence` 建立 Document–Evidence 关系。

3. **嵌入 LLM / GraphRAG 系统**  
   - 使用 `Entities` 作为「语义检索的锚点」、`Evidence` 作为检索返回的原文片段；  
   - 在回答时返回：  
     - 方法论节点（Rule/Step 等） + 对应 evidences（句子） + PDF 页码，形成高可解释性答案。

---

## 4. 后续可扩展方向

- 新增 `MediaEvidence.csv`：  
  - 把 PDF 中的图表、示意图以「图号 + 标题 + 说明」挂入图谱；  
- 为关键规则 / 步骤节点人工标注定义句、操作句：  
  - 充实 NodeEvidence，让 LLM 能做「基于规则」的精确回答；  
- 与其它项目（泰国德教调查、NEV 内容生态、供应链趋势等）的知识图谱进行对接，构建统一的 **Methodology Super-KG**。

---

如需在本 README 基础上生成英文完整版、或添加具体导入 Neo4j / GraphRAG 的脚本示例，可以在对话中直接说明，我可以给出对应版本。
